Telegram Group & Telegram Channel
Forwarded from Machinelearning
⚡️ Matrix3D: универсальная модель для фотограмметрии от Apple.

Matrix3D — модель, предлагающая решение сразу нескольких задач в рамках единой архитектуры: оценку положения камер, предсказание глубины и генерацию новых ракурсов.

Всю эту красоту обеспечивает модифицированный диффузионный трансформер, который обрабатывает изображения, параметры камер и карты глубины как взаимосвязанные модальности. Он не только упрощает традиционный пайплайн (нет зависимостей от отдельных алгоритмов SfM или MVS), но и повышает точность за счет уникальной оптимизации.

Ключевая особенность Matrix3D — маскированное обучение, позаимствованное из методов MAE. Модель тренируется на частично заполненных данных: парах «изображение-поза» или «изображение-глубина». При этом модель учится «достраивать» недостающие модальности, что позволяет комбинировать входы и выходы во время инференса. Например, можно добавить карту глубины с физического датчика или сгенерировать новые ракурсы на основе всего двух изображений.

Результаты тестов с задачей оценки поз на датасете CO3D Matrix3D обходят специализированные методы (RayDiffusion): точность определения положения камеры достигает 96,3% против 92,4% у конкурентов.

В синтезе видов модель демонстрирует PSNR 20,45 против 19,22 у SyncDreamer, а в оценке глубины — AbsRel 0,036 против 0,064 у Metric3D. При этом Matrix3D не требует отдельных моделей для каждой задачи, все решается в рамках одной модели.

Практическая ценность модели — в ее адаптивности. Например, для 3D-реконструкции из одного кадра Matrix3D сначала генерирует недостающие ракурсы, оценивает их позы и глубину, а затем оптимизирует сцену через 3D Gaussian Splatting.

Для работы с несколькими кадрами без известных поз модель сама восстанавливает параметры камер, что раньше требовало отдельного этапа с COLMAP. Все это реализовано в репозитории с готовыми скриптами — от синтеза видов до полной реконструкции.

Конечно, есть нюансы: качество облаков точек пока уступает другим методам (GeoMVSNet). Но даже имеющиеся результаты достаточны для инициализации 3DGS, а главное — весь процесс занимает несколько минут на одной RTX 3090. Для сравнения: CAT3D, хотя и точнее в синтезе, требует 16х A100 и оптимизации под каждую сцену.


🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Photogrammetry #Matrix3D #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/opendatascience/2289
Create:
Last Update:

⚡️ Matrix3D: универсальная модель для фотограмметрии от Apple.

Matrix3D — модель, предлагающая решение сразу нескольких задач в рамках единой архитектуры: оценку положения камер, предсказание глубины и генерацию новых ракурсов.

Всю эту красоту обеспечивает модифицированный диффузионный трансформер, который обрабатывает изображения, параметры камер и карты глубины как взаимосвязанные модальности. Он не только упрощает традиционный пайплайн (нет зависимостей от отдельных алгоритмов SfM или MVS), но и повышает точность за счет уникальной оптимизации.

Ключевая особенность Matrix3D — маскированное обучение, позаимствованное из методов MAE. Модель тренируется на частично заполненных данных: парах «изображение-поза» или «изображение-глубина». При этом модель учится «достраивать» недостающие модальности, что позволяет комбинировать входы и выходы во время инференса. Например, можно добавить карту глубины с физического датчика или сгенерировать новые ракурсы на основе всего двух изображений.

Результаты тестов с задачей оценки поз на датасете CO3D Matrix3D обходят специализированные методы (RayDiffusion): точность определения положения камеры достигает 96,3% против 92,4% у конкурентов.

В синтезе видов модель демонстрирует PSNR 20,45 против 19,22 у SyncDreamer, а в оценке глубины — AbsRel 0,036 против 0,064 у Metric3D. При этом Matrix3D не требует отдельных моделей для каждой задачи, все решается в рамках одной модели.

Практическая ценность модели — в ее адаптивности. Например, для 3D-реконструкции из одного кадра Matrix3D сначала генерирует недостающие ракурсы, оценивает их позы и глубину, а затем оптимизирует сцену через 3D Gaussian Splatting.

Для работы с несколькими кадрами без известных поз модель сама восстанавливает параметры камер, что раньше требовало отдельного этапа с COLMAP. Все это реализовано в репозитории с готовыми скриптами — от синтеза видов до полной реконструкции.

Конечно, есть нюансы: качество облаков точек пока уступает другим методам (GeoMVSNet). Но даже имеющиеся результаты достаточны для инициализации 3DGS, а главное — весь процесс занимает несколько минут на одной RTX 3090. Для сравнения: CAT3D, хотя и точнее в синтезе, требует 16х A100 и оптимизации под каждую сцену.


🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Photogrammetry #Matrix3D #Apple

BY Data Science by ODS.ai 🦜





Share with your friend now:
tg-me.com/opendatascience/2289

View MORE
Open in Telegram


Data Science by ODS ai 🦜 Telegram | DID YOU KNOW?

Date: |

Pinterest (PINS) Stock Sinks As Market Gains

Pinterest (PINS) closed at $71.75 in the latest trading session, marking a -0.18% move from the prior day. This change lagged the S&P 500's daily gain of 0.1%. Meanwhile, the Dow gained 0.9%, and the Nasdaq, a tech-heavy index, lost 0.59%. Heading into today, shares of the digital pinboard and shopping tool company had lost 17.41% over the past month, lagging the Computer and Technology sector's loss of 5.38% and the S&P 500's gain of 0.71% in that time. Investors will be hoping for strength from PINS as it approaches its next earnings release. The company is expected to report EPS of $0.07, up 170% from the prior-year quarter. Our most recent consensus estimate is calling for quarterly revenue of $467.87 million, up 72.05% from the year-ago period.

If riding a bucking bronco is your idea of fun, you’re going to love what the stock market has in store. Consider this past week’s ride a preview.The week’s action didn’t look like much, if you didn’t know better. The Dow Jones Industrial Average rose 213.12 points or 0.6%, while the S&P 500 advanced 0.5%, and the Nasdaq Composite ended little changed.

Data Science by ODS ai 🦜 from cn


Telegram Data Science by ODS.ai 🦜
FROM USA